Vous êtes perdu entre polices, encodages des sigles comme latin, utf8, unicode, iso8859-15, … ?
Cette page a pour l'ambition de vous permettre de comprendre pourquoi vous trouvez parfois :
et de vous permettre de vous en sortir.
Un texte, suite de caractères, n'a de sens que si l'on connaît son encodage.
1) L'encodage par défaut sous Windows (interface graphique) est cp1252.
2) L'encodage par défaut d'une console DOS est cp850 pour les systèmes de l'Europe de l'Ouest (Western Europe) ou cp437 pour les Etats-Unis.
3) Aucun éditeur n'est capable - et ne le sera jamais - de déterminer l'encodage d'un fichier texte.
4) Les bonnes applications peuvent travailler indifféremment avec différents encodages (généralement, ce sont ascii, cp1252, iso-8859-1 et utf-8, iso-8859-15 est moins utilisé) pour les utilisateurs de langues latines et anglo-saxonnes.
5) De 4) il découle que les systèmes d'exploitation sont cohérents, les problèmes qui se posent sont généralement dus à une méconnaissance du fonctionnement des encodages.
6) Il est faux de croire qu'il faille changer l'encodage d'un fichier pour passer d'un système à un autre. Si l'échange de fichiers est régulier, il est préférable de régler ses outils de travail (éditeurs, …) en conformité avec les-dits fichiers.
7) Attention: le web est archi bourré d'informations fausses à ce sujet.
8) Attention (2): Se méfier comme de la peste de l'apparence d'une conversion réussie. Les encodages étant similaires pour de nombreux caractères, de nombreux utilisateurs croient en voyant le texte que la conversion était correcte ou suffisante alors que les choix des options de conversion sont erronés.
9) Une bonne introduction / explication (en anglais) sur ce que sont les encodages est ici : http://www.joelonsoftware.com/articles/Unicode.html
L'encodage dont il est question ici n'a de sens que pour les fichiers texte (ou plus exactement codés en texte et non en binaire). Cela inclut les codes sources, les fichiers log, les noms de fichiers (système de fichiers)…
Pour des fichiers binaires, il existe différents types d'encodage, mais qui n'ont rien à voir avec le sujet de cette page.
L'objectif de l'encodage est d'associer un numéro pour chaque caractère d'une langue.
Il est indispensable, pour l'échange d'informations de préciser le codage utilisé.
Ne pas le faire peut rendre un document difficilement lisible (remplacement des lettres accentuées par d'autres suites de caractères, …). plus ici
La norme de base est l’ASCII. Cette norme (normalisée par l’ANSI en 1986) n'utilise que 7 bits et permet de coder 128 caractères (26*2 lettres + 10 chiffres + un peu de ponctuation + des caractères non affichables comme les sauts de lignes, mais pas d'accents).
Les ordinateurs modernes représentent chaque caractère avec au moins 8 bits (un octet), les codes 128 à 255 sont disponibles pour étendre l'ASCII (à des caractères accentués notamment). Ces extensions portent le nom de «page de code» (code page en anglais).
Chaque page de code génère de fait un encodage différent mais dont les 128 premiers caractères sont identiques et dont certains des suivants se recoupent parfois.
Pour résumer, l'ASCII est le standard de compatibilité mais ne supporte pas les accents.
Pour des information sur les systèmes de codage plus récents (1991), reportez vous aux pages : Unicode, UTF-8 et UTF-16
Objectif:
Windows et les applications prévues pour y fonctionner utilisent par défaut le cp1252, une variante de l'iso 8859-1 (en grande partie similaires).
Sous Ubuntu, l'UTF-8 est l'encodage par défaut de toutes (?) les applications courantes.
file -i *
a.txt: text/x-pascal; charset=us-ascii
b.xml: text/xml
c.txt: text/plain; charset=utf-8
explication du retour de la commande à clarifier
Attention : une conversion mal appropriée ou appliquée deux fois successivement risque de corrompre définitivement votre fichier (i.e. impossibilité de revenir en arrière par une conversion inversée. (sauvegardez donc vos données et faites des tests avant d'aller trop loin)
Exemple de script permettant la converson d'un fichier txt de utf8 vers iso8859-15 :
#!/bin/bash for i in *.txt do iconv -f utf8 -t iso8859-15 "$i" > "$i".new done
Pour s'y retrouver dans les dénominations : une table
La plupart des éditeurs de textes sont capables de lire/écrire dans différents encodages. Il faut trouver l'option d'affichage adéquate (usuellement dans Outils > Encodage)
Pour une partition il faut préciser un encodage pour décrire les noms de fichiers (chaque fichier pouvant utiliser des encodages différents)
Sous linux, il faut indiquer l'encodage au montage de la partition (voir /etc/fstab).
Général:
Description d'encodages particuliers:
Sources d'information les aspects Linux:
Contributeurs : — fnx Le 31/10/2009, 14:36 Merci à @Rom, aleph